Transformers are widely used in NLP tasks. However, current approaches to leveraging transformers to understand language expose one weak spot: Number understanding. In some scenarios, numbers frequently occur, especially in semi-structured data like tables. But current approaches to rich-number tasks with transformer-based language models abandon or lose some of the numeracy information - e.g., breaking numbers into sub-word tokens - which leads to many number-related errors. In this paper, we propose the LUNA framework which improves the numerical reasoning and calculation capabilities of transformer-based language models. With the number plugin of NumTok and NumBed, LUNA represents each number as a whole to model input. With number pre-training, including regression loss and model distillation, LUNA bridges the gap between number and vocabulary embeddings. To the best of our knowledge, this is the first work that explicitly injects numeracy capability into language models using Number Plugins. Besides evaluating toy models on toy tasks, we evaluate LUNA on three large-scale transformer models (RoBERTa, BERT, TabBERT) over three different downstream tasks (TATQA, TabFact, CrediTrans), and observe the performances of language models are constantly improved by LUNA. The augmented models also improve the official baseline of TAT-QA (EM: 50.15 -> 59.58) and achieve SOTA performance on CrediTrans (F1 = 86.17).
translated by 谷歌翻译
语义本地化(SELO)是指使用语义信息(例如文本)在大规模遥感(RS)图像中获得最相关位置的任务。作为基于跨模式检索的新兴任务,Selo仅使用字幕级注释来实现语义级检索,这表明了其在统一下游任务方面的巨大潜力。尽管Selo已连续执行,但目前没有系统地探索并分析了这一紧急方向。在本文中,我们彻底研究了这一领域,并根据指标和测试数据提供了完整的基准,以推进SELO任务。首先,基于此任务的特征,我们提出了多个判别评估指标来量化SELO任务的性能。设计的显着面积比例,注意力转移距离和离散的注意距离可用于评估从像素级别和区域级别中产生的SELO图。接下来,为了为SELO任务提供标准评估数据,我们为多样化的,多语义的,多目标语义定位测试集(AIR-SLT)贡献。 AIR-SLT由22个大型RS图像和59个具有不同语义的测试用例组成,旨在为检索模型提供全面的评估。最后,我们详细分析了RS跨模式检索模型的SELO性能,探索不同变量对此任务的影响,并为SELO任务提供了完整的基准测试。我们还建立了一个新的范式来引用RS表达理解,并通过将其与检测和道路提取等任务相结合,证明了Selo在语义中的巨大优势。拟议的评估指标,语义本地化测试集和相应的脚本已在github.com/xiaoyuan1996/semanticlocalizationmetrics上访问。
translated by 谷歌翻译
许多数据分析任务在很大程度上依赖对表的深入了解(多维数据)。在整个任务中,都存在表字段 /列的共同使用的元数据属性。在本文中,我们确定了四个这样的分析元数据:测量/维度二分法,公共场作用,语义场类型和默认聚集函数。尽管这些元数据面临不足的监督信号的挑战,利用现有的知识和理解分布。为了将这些元数据推理为原始表,我们提出了多任务元数据模型,该模型将现场分布和知识图信息融合到预训练的表格模型中。对于模型培训和评估,我们通过使用下游任务的各种智能监督来收集分析元数据的大型语料库(来自私人电子表格和公共表格数据集的〜582K表)。我们的最佳模型的精度= 98%,命中率在TOP-1> 67%,精度> 80%和四个分析元数据推理任务的精度= 88%。它的表现优于基于规则,传统机器学习方法和预训练的表格模型的一系列基线。分析元数据模型被部署在流行的数据分析产品中,帮助下游智能功能,例如Insights挖掘,图表 /枢轴表建议和自然语言QA ...
translated by 谷歌翻译
数据驱动的预测方法可以有效,准确地将蛋白质序列转化为生物活性结构,对于科学研究和治疗发展非常有价值。使用共同进化信息确定准确的折叠格局是现代蛋白质结构预测方法的成功基础。作为最新的状态,AlphaFold2显着提高了准确性,而无需进行明确的共同进化分析。然而,其性能仍然显示出对可用序列同源物的强烈依赖。我们研究了这种依赖性的原因,并提出了一种元生成模型Evogen,以弥补较差的MSA靶标的Alphafold2的表现不佳。 Evogen使我们能够通过降低搜索的MSA或生成虚拟MSA来操纵折叠景观,并帮助Alphafold2在低数据表方面准确地折叠,甚至通过单序预测来实现令人鼓舞的性能。能够用很少的MSA做出准确的预测,不仅可以更好地概括为孤儿序列的Alphafold2,而且使其在高通量应用程序中的使用民主化。此外,Evogen与AlphaFold2结合产生了一种概率结构生成方法,该方法可以探索蛋白质序列的替代构象,并且序列生成的任务意识可区分算法将使包括蛋白质设计在内的其他相关任务受益。
translated by 谷歌翻译
在自然语言处理中,广泛使用黑框模型为对决策基础的理解,预测结果的可信度以及改善模型性能带来了巨大挑战。文本样本中的单词具有反映其语义和上下文信息的属性,例如语音,位置等。这些属性可能与显着性一词具有一定的关系,这有助于研究模型的解释性预测。在本文中,我们探讨了“显着性”一词和属性一词之间的关系。根据分析结果,我们进一步建立了一个映射模型Seq2Sality,从文本样本中的单词及其属性到基于序列标记的概念的显着性值。此外,我们建立了一个名为PRSALM的新数据集,该数据集包含文本示例中的每个单词,单词属性和单词显着性值。进行实验评估以分析具有不同特性的单词的显着性。验证了SEQ2Sality模型的有效性。
translated by 谷歌翻译
基于远程光摄氏学的心率估计在几种特定情况下(例如健康监测和疲劳检测)起着重要作用。现有良好的方法致力于将多个重叠视频剪辑的预测HR平均作为30秒面部视频的最终结果。尽管这些具有数百层和数千个渠道的方法是高度准确且健壮的,但它们需要巨大的计算预算和30秒的等待时间,这极大地限制了算法的应用来扩展。在这些CicumStacnces下,我们提出了一个轻巧的快速脉冲模拟网络(LFPS-NET),在非常有限的计算和时间预算中追求最佳准确性,重点关注通用的移动平台,例如智能手机。为了抑制噪声组件并在短时间内获得稳定的脉冲,我们设计了多频模态信号融合机制,该机制利用了时频域分析理论,以将多模式信息与复杂信号分开。它有助于继续进行网络,而无需添加任何参数,可以更轻松地学习有效的热门。此外,我们设计了一个过采样培训策略,以解决由数据集的分布不平衡引起的问题。对于30秒的面部视频,我们提出的方法在大多数评估指标上取得了最佳结果,以估计心率或心率变异性与最佳论文相比。提出的方法仍然可以使用短时(〜15秒)的主体视频获得非常具竞争力的结果。
translated by 谷歌翻译
蛋白质是人类生命的重要组成部分,其结构对于功能和机制分析很重要。最近的工作表明了AI驱动方法对蛋白质结构预测的潜力。但是,新模型的开发受到数据集和基准测试培训程序的限制。据我们所知,现有的开源数据集远不足以满足现代蛋白质序列相关研究的需求。为了解决这个问题,我们介绍了具有高覆盖率和多样性的第一个百万级蛋白质结构预测数据集,称为PSP。该数据集由570K真实结构序列(10TB)和745K互补蒸馏序列(15TB)组成。此外,我们还提供了该数据集上SOTA蛋白结构预测模型的基准测试训练程序。我们通过参与客串比赛验证该数据集的实用程序进行培训,我们的模特赢得了第一名。我们希望我们的PSP数据集以及培训基准能够为AI驱动的蛋白质相关研究提供更广泛的AI/生物学研究人员社区。
translated by 谷歌翻译
在卫星布局设计中,热源布局优化(HSLO)是一种有效的技术,可降低最高温度并改善整个系统的热量管理。最近,已经提出了深度学习的替代辅助HSLO,该辅助辅助HSLO从布局到相应的温度场进行了映射,以便在优化过程中替换仿真以大大降低计算成本。但是,它面临两个主要挑战:1)特定任务的神经网络代理通常是手动设计的,这是复杂的,需要丰富的调试经验,这对工程领域的设计师来说是具有挑战性的; 2)现有的HSLO算法只能在单个优化中获得几乎最佳的解决方案,并且很容易被捕获以局部最佳限制。为了应对第一个挑战,考虑减少总参数编号并确保相似的准确性以及与特征金字塔网络(FPN)框架相结合的神经体系结构搜索(NAS)方法,以实现自动搜索小型搜索的目的深度学习的替代模型。为了应对第二项挑战,提出了一种基于多模式搜索的布局优化算法(MNSLO),该算法(MNSLO)可以单一优化同时获得更多,更好的近似最佳设计方案。最后,利用了两个典型的二维热传导优化问题来证明该方法的有效性。具有相似的精度,NAS找到了比原始FPN的参数少80%,拖失板少64%和36%的模型。此外,在自动搜索的深度学习代理人的帮助下,MNSLO可以同时实现多个接近最佳的设计方案,以为设计师提供更多的设计多样性。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
血压(BP)监测对于日常医疗保健至关重要,尤其是对于心血管疾病。但是,BP值主要是通过接触传感方法获得的,这是不方便且不友好的BP测量。因此,我们提出了一个有效的端到端网络,以估算面部视频中的BP值,以实现日常生活中的远程BP测量。在这项研究中,我们首先得出了短期(〜15s)面部视频的时空图。根据时空图,我们随后通过设计的血压分类器回归了BP范围,并同时通过每个BP范围内的血压计算器来计算特定值。此外,我们还制定了一种创新的过采样培训策略,以解决不平衡的数据分配问题。最后,我们在私有数据集ASPD上培训了拟议的网络,并在流行的数据集MMSE-HR上对其进行了测试。结果,拟议的网络实现了收缩压和舒张压测量的最先进的MAE,为12.35 mmHg和9.5 mmHg,这比最近的工作要好。它得出的结论是,在现实世界中,提出的方法对于基于摄像头的BP监测具有巨大潜力。
translated by 谷歌翻译